1334
377
J'utilise PIG pour générer une liste d'URL qui ont été récemment visitées. Dans chacune des URL, il y a une chaîne de chiffres qui représente la page produit visitée. J'essaie d'utiliser une fonction regex_extract_all () pour extraire uniquement la chaîne de nombres, dont la longueur varie de 6-8. La chaîne de chiffres se trouve directement après jobs2 / view / et se termine généralement par + & cd mais parfois ils peuvent se terminer par).
Voici quelques exemples d'URL:
(http://a.com/search?q=cache:QD7vZRHkPQoJ:ca.xyz.com/jobs2/view/17069404+&cd=1&hl=fr&ct=clnk&gl=ca)
(http://a.com/search?q=cache:G9323j2oNbAJ:ca.xyz.com/jobs2/view/5977065+&cd=1&hl=en&ct=clnk&gl=ca)
(http://a.com/search?q=cache:aNspmG11qAJ:hk.xyz.com/jobs2/view/16988928+&cd=2&hl=zh-TW&ct=clnk&gl=hk)
(http://a.com/search?q=cache:aNspmG11AJ:hk.xyz.com/jobs2/view/16988928+&cd=2&hl=zh-TW&ct=clnk&gl=hk)
(http://a.com/search?q=cache:aNspmG11qAJ:hk.xyz.com/jobs2/view/16988928+&cd=2&hl=zh-TW&ct=cl k & gl = hk)
Voici la regex actuelle que j'utilise:
J = FOREACH jpage GENERATE FLATTEN (REGEX_EXTRACT_ALL (TEXTCOLUMN, '\ / view \ / (\ d +) \ + \ &')) comme (sortie: chararray)
J'ai également essayé d'autres formes telles que:
'[0-9] [0-9] [0-9] [0-9] [0-9] [0-9] [0-9] [0-9]', 'vue. ([0- 9] +) ',' vue \ / ([\ d] +) \ + ',
«[0-9] [0-9] [0-9] +» et
«[0-9] [0-9] [0-9] *»; aucun de qui fonctionne.
Quelqu'un peut-il aider ici ou avoir une autre façon de procéder?
Très appréciée,
MM 
La raison du "caractère inattendu 'D'" est que vous devez mettre une double barre oblique inverse au lieu d'une seule barre oblique inverse. par exemple, remplacez simplement [\ d +] par [\\ d +]
Voici votre solution, merci de valider toutes vos chaînes d'entrées
input.txt
http://a.com/search?q=cache:QD7vZRHkPQoJ:ca.xyz.com/jobs2/view/17069404+&cd=1&hl=fr&ct=clnk&gl=ca
http://a.com/search?q=cache:G9323j2oNbAJ:ca.xyz.com/jobs2/view/5977065+&cd=1&hl=en&ct=clnk&gl=ca
http://a.com/search?q=cache:aNspmG11qAJ:hk.xyz.com/jobs2/view/16988928+&cd=2&hl=zh-TW&ct=clnk&gl=hk
http://a.com/search?q=cache:aNspmG11AJ:hk.xyz.com/jobs2/view/16988928+&cd=2&hl=zh-TW&ct=clnk&gl=hk
http://a.com/search?q=cache:aNspmG11qAJ:hk.xyz.com/jobs2/view/16988928+&cd=2&hl=zh-TW&ct=clk&gl=hk
http://a.com/search?q=cache:aNspmG11qAJ:hk.xyz.com/jobs2/view/16988928)=2&hl=zh-TW&ct=clk&gl=hk
http://webcache.googleusercontent.com/search?q=cache:http://my.linkedin.com/jobs2/view/9919248
Pigscript mis à jour:
A = CHARGER 'input.txt' comme ligne;
B = AVANT A GENERER REGEX_EXTRACT (ligne, '. * / Vue / (\\ d +) ([+ | & | cd |)?] +)?', 1);
dump B;
(17069404)
(5977065)
(16988928)
(16988928)
(16988928)
(16988928)
6
|
Je ne suis pas familier avec PIG, mais cette regex correspondra à votre cible:
(? <= / jobs2 / view /) \ d +
En utilisant un regard (non consommateur) derrière, la correspondance entière (pas seulement un groupe de la correspondance) est votre numéro.
1
|
Ta Réponse
StackExchange.ifUsing ("éditeur", fonction () {
StackExchange.using ("externalEditor", function () {
StackExchange.using ("extraits", function () {
StackExchange.snippets.init ();
});
});
}, "extraits de code");
StackExchange.ready (fonction () {
var channelOptions = {
tags: "" .split (""),
id: "1"
};
initTagRenderer ("". split (""), "" .split (""), channelOptions);
StackExchange.using ("externalEditor", function () {
// Doit lancer l'éditeur après les extraits, si les extraits sont activés
if (StackExchange.settings.snippets.snippetsEnabled) {
StackExchange.using ("extraits", function () {
createEditor ();
});
}
autre {
createEditor ();
}
});
function createEditor () {
StackExchange.prepareEditor ({
useStacksEditor: faux,
heartbeatType: 'réponse',
autoActivateHeartbeat: faux,
convertImagesToLinks: vrai,
noModals: vrai,
showLowRepImageUploadWarning: vrai,
reputationToPostImages: 10,
bindNavPrevention: vrai,
suffixe: "",
imageUploader: {
brandingHtml: "Powered by \ u003ca href = \" https: //imgur.com/ \ "\ u003e \ u003csvg class = \" svg-icon \ "width = \" 50 \ "height = \" 18 \ "viewBox = \ "0 0 50 18 \" fill = \ "none \" xmlns = \ "http: //www.w3.org/2000/svg \" \ u003e \ u003cpath d = \ "M46.1709 9.17788C46.1709 8.26454 46.2665 7.94324 47.1084 7.58816C47.4091 7.46349 47.7169 7.36433 48.0099 7.26993C48.9099 6.97997 49.672 6.73443 49.672 5.93063C49.672 5.22043 48.9832 4.61182 48.1414 4.61182C47.4335 4.61182 46.72554.9762.6943 4.61182C47.4335 4.61182 46.72554.91628 46.094 4.69.4335 4.61182 46.72554.91628 46.094.49.48.4335 4.61182 46.7256 4.9762.692 43.1481 6.59048V11.9512C43.1481 13.2535 43.6264 13.8962 44.6595 13.8962C45.6924 13.8962 46.1709 13.2535 46.1709 11.9512V9.17788Z \ "/ \ u003e \ u003cpath d = \" M32.492 10.1419C32.492 12.6954.0 34184.01448.0 14.6954.0 34184.0 34184.0 14.6954.0 34184.0 14484.0 14.6954.0 34184.0 14484.0 41,5985 12,6954 41,5985 10,1419V6,59049C41,5985 5,28821 41,1394 4,66232 40,1061 4,66232C39,0732 4,66232 38,5948 5,28821 38,5948 6,59049V9,60062C38,5948 10,8521 38,2696 11,5455 37,0451 11,4455,5C35,820 521 35.4954 9.60062V6.59049C35.4954 5.28821 35.0173 4.66232 34.0034 4.66232C32.9703 4.66232 32.492 5.28821 32.492 6.59049V10.1419Z \ "/ \ u003e \ u003cpath fill-rule = \" evenodd \ "clip-rule = \" evenodd \ "clip-rule = \" evenodd \ "d. = \ "M25.6622 17.6335C27.8049 17.6335 29.3739 16.9402 30.2537 15.6379C30.8468 14.7755 30.9615 13.5579 30.9615 11.9512V6.59049C30.9615 5.28821 30.4833 4.66231 29.4502 4.66231C28.993 15.6379C30.8468 14.7755 30.9615 13.5579 30.9615 11.9512V6.59049C30.9615 5.28821 30.4833 4.66231 29.4502 4.66231C28.993.509 4.66231 29.4502 4.66231C28.993.505 4.66231 29.4502 4.66231C28.993.505 4.66231 29.4502 4.66231C28.993.505 4.66231 29.4502 4.66231C28.993.505 4.66231 29.4502 4.66231C28.993.505 4.66231 29.4502 4.66231C28.993.505 4.66231 29.4502 4.66231C28.99350 .1369 4.56087 21.0134 6.57349 21.0134 9.27932C21.0134 11.9852 23.003 13.913 25.3754 13.913C26.5612 13.913 27.4607 13.4902 28.1109 12.6616C28.1109 12.7229 28.1161 12.7799 28.121 12.8341.8308.28.1161 12.7799 28.121 12.8341.830C 12.7799 28.121 12.8341.830C 12.7799 28.137 12.8341.830C 28.1161 12.7799 28.121 12.8341.8302.4284.1256 12.7799 28.121 12.8341.285 12.8341.2256 12.7799 28.121 12.8341.224C 12.7799 28.121 12.8341.830C 12.7799 28.121 12.8341.250 15.2321 24.1352 14.9821 23.5661 14.7787C23.176 14.6393 22.8472 14.5218 22.5437 14.5218C21.7977 14.5218 21.2429 15.0123 21.2429 15.6887C21.2429 16.7375 22.9072 17.6393 22.8472 14.5218 22.5437 14.5218C21.7977 14.5218 21.2429 15.0123 21.2429 15.6887C21.2429 16.7375 22.9072 17.6335 25.6622 17.6335 7.0247 7.02417.6335 25.6622 17.6335 7,0177,0247,0249,2179,2177,024 27.2119 7.09766 28.0918 7.94324 28.0918 9.27932C28.0918 10.6321 27.2311 11.5116 26.1024 11.5116C24.9737 11.5116 24.1317 10.6491 24.1317 9.27932Z \ "/ \ u003e \ u003cpath d = \" M16.802965 11.9512C16.80 19. 5.00066 5.28821 5.00066 6.59049V11.9512C5.00066 13.2535 5.47873 13.8962 6.51203 13.8962C7.54479 13.8962 8.0232 13.2535 8.023211.9512V8.90741C8.0232 7.58817 8.44431 6.91179 9.53458 6.91179C10.5104 6.91179 10.893 7.58817 10.893 8.94108V11.9512C10.893 13.2535 11.3711 13.8962 12.4044 13.8962C13.4375 13.8962 13.9157.90 6.91179 10.893 7.58817 10.893 8.94108V11.9512C10.893 13.2535 11.3711 13.8962 12.4044 13.8962C13.4375 13.8962 13.9157.907 13.8962C13.4375 13.8962 13.9157.906 13.8962C13.4375 13.8962 13.9157.906 1388.1405 13.8915.911.4114 13.84.1407 6.91179 16.8045 7.58817 16.8045 8.94108V11.9512Z \ "/ \ u003e \ u003cpath d = \" M3.31675 6.59049C3.31675 5.28821 2.83866 4.66232 1.82471 4.66232C0.791758 4.66232 0.313354 5.28821 0.313354 6.59049V11.95412C0.73354 5.28821 0.313354 6.59049V11.95412C0. .85798 13.8962 3.31675 13.2535 3.31675 11.9512V6.59049Z \ "/ \ u003e \ u003cpath d = \" M1.87209 0.400291C0.843612 0.400291 0 1.1159 0 1.98861C0 2.87869 0.822846 3.57676 1.87209 3.576776.76C2 3.88846 3.57676 1.87209 3.576776.956C2 3.886.96 1.1159 2.90056 0.400291 1.87209 0.400291Z \ "fill = \" # 1BB76E \ "/ \ u003e \ u003c / svg \ u003e \ u003c / a \ u003e",
contentPolicyHtml: "Contributions des utilisateurs sous licence \ u003ca href = \" https: //stackoverflow.com/help/licensing \ "\ u003ecc by-sa \ u003c / a \ u003e \ u003ca href = \" https://stackoverflow.com / legal / content-policy \ "\ u003e (politique de contenu) \ u003c / a \ u003e",
allowUrls: vrai
},
onDemand: vrai,
discardSelector: ".discard-answer"
, immédiatementShowMarkdownHelp: true, enableTables: true, enableSnippets: true
});
}
});
Merci d'avoir répondu à Stack Overflow!
Veuillez vous assurer de répondre à la question. Fournissez des détails et partagez vos recherches!
Mais évitez…
Demander de l'aide, des éclaircissements ou répondre à d'autres réponses.
Faire des déclarations basées sur des opinions; les sauvegarder avec des références ou une expérience personnelle.
Pour en savoir plus, consultez nos conseils sur la rédaction de bonnes réponses.
Brouillon enregistré
Brouillon rejeté
Inscrivez-vous ou connectez-vous
StackExchange.ready (fonction () {
StackExchange.helpers.onClickDraftSave ('# login-link');
});
Inscrivez-vous avec Google
Inscrivez-vous via Facebook
Inscrivez-vous par e-mail et mot de passe
Nous faire parvenir
Publier en tant qu'invité
Nom
E-mail
Obligatoire, mais jamais affiché
StackExchange.ready (
fonction () {
StackExchange.openid. answer ',' question_page ');
}
);
Publier en tant qu'invité
Nom
E-mail
Obligatoire, mais jamais affiché
Publiez votre réponse
Jeter
En cliquant sur «Publier votre réponse», vous acceptez nos conditions d'utilisation, notre politique de confidentialité et notre politique de cookies
Ce n'est pas la réponse que vous recherchez? Parcourez les autres questions marquées regex apache-pig extrait regex-lookarounds lookaround ou posez votre propre question.